Техника sockpuppeting помогает обойти ограничения языковых моделей

13.04.2026

Комментарии отключены

В недавнем исследовании была представлена техника, известная как sockpuppeting, которая позволяет обходить ограничения 11 популярных языковых моделей (LLM) с использованием всего одной строки кода. Этот метод не атакует саму модель, а затрагивает способ работы некоторых API. Исследователи обнаружили, что через функцию assistant prefill можно подставить фразу, создающую видимость согласия модели на выполнение потенциально опасного запроса. Это приводит к тому, что модель продолжает генерировать запрещенный контент вместо стандартного отказа. По данным Trend Micro, наиболее уязвимой оказалась модель Gemini 2.5 Flash, в то время как GPT-4o-mini продемонстрировала наименьшую уязвимость. Уязвимые модели даже выдавали вредоносный код и раскрывали чувствительные данные. Для повышения безопасности исследователи советуют проверять порядок сообщений на уровне API и учесть возможности атак через assistant prefill в программах AI red teaming.

Техника sockpuppeting помогает обойти ограничения языковых моделей

Гастроэнтеролог: чистка печени — миф

Связь между физической активностью и снижением риска рака

Новые горизонты в изучении памяти: клетки тканей могут запоминать информацию

Рост устойчивости к брюшному тифу угрожает здоровью во всем мире

Опасности для печени: как защитить этот жизненно важный орган

Научная работа по редактированию генов: новая технология

Опасные причины одышки: советы врача

Опасность вырыванию волос в носу: мнение специалиста

Лень: наследственное или адаптивное качество?

Основные аспекты работы и безопасности онлайн-казино: регистрация, финансовые операции, игровые провайдеры и игровые категории

Исследование ученых из Аделаиды: Природа врожденных пороков сердца

Женщина из Санкт-Петербурга делится историей жизни с ВИЧ

Техника sockpuppeting помогает обойти ограничения языковых моделей

Создать профиль

Войдите в свою учетную запись